Règles d’Edition: Fouille et Application au Nettoyage de Données
نویسندگان
چکیده
Dirty data is a serious problem for businesses, leading to incorrect decision making, inefficient daily operations, and ultimately wasting both time and money. A variety of integrity constraints like Conditional Functional Dependencies (CFD) have been studied for data cleaning. Data repairing methods based on these constraints are strong to detect inconsistencies but are limited on how to correct data, worse they can even introduce new errors. Based on Master Data Management principles, a new class of data quality rules known as Editing Rules (eR) tells how to fix errors, pointing which attributes are wrong and what values they should take. However, finding data quality rules is an expensive process that involves intensive manual efforts. In this paper, we develop pattern mining technics for discovering eRs from existing source relations (eventually dirty) with respect to master relations (supposed to be clean and accurate). In this setting, we propose a new semantic of eRs taking advantage of both source and master data. The problem turns out to be strongly related to the discovery of both CFD and one-to-one correspondences between sources and target attributes. We have implemented and evaluated our technics on real-life databases. Experiments show both the feasibility, the scalability and the robustness of our proposition.
منابع مشابه
Nettoyage des données XML : combien ça coûte ?
Résumé. L'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d’un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préa...
متن کاملESIEA Datalab Logiciel de Nettoyage et Préparation de Données
Il est communément admis que le temps de préparation des données peut occuper jusqu’à 80% du temps lors d’un projet industriel de fouille de données (Pyle, 1999). L’hétérogénéité des sources, la présence de valeurs manquantes, les erreurs de saisie ou de calcul, les pannes de capteurs, une mauvaise fusion de données sont autant de causes qui peuvent introduire erreurs et incohérences dans une t...
متن کاملVers le prototypage rapide de programmes de fouille de données
Bien que guidées par des problèmes réels, les techniques mises au point dans le cadre de la recherche en fouille de données sont encore peu utilisées et leur mise en œuvre reste confinée à la discrétion de quelques programmeurs spécialistes. Ce ”transfert technologique” est donc freiné par un certain nombre de verrous, parmi lesquels le temps nécessaire à la mise au point des programmes opérati...
متن کاملExtraction et usages de motifs minimaux en fouille de données, contribution au domaine des hypergraphes
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملLa fouille de graphes dans les bases de données réactionnelles au service de la synthèse en chimie organique
Résumé. La synthèse en chimie organique consiste à concevoir de nouvelles molécules à partir de réactifs et de réactions. Les experts de la synthèse s’appuient sur de très grandes bases de données de réactions qu’ils consultent à travers des procédures d’interrogation standard. Un processus de découverte de nouvelles réactions leur permettrait de mettre au point de nouveaux procédés de synthèse...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2012